案例分享丨一种基于隐私计算的数据交易模式研究
摘要:在传统的数据交易模式中,数据的所有权和使用权往往被集中在数据持有者手中,在交易的过程中交易对象为原始数据,这可能导致个人隐私泄露和滥用的风险。基于隐私计算的数据交易模式是一种旨在保护个体隐私的数据交易方式,基于隐私计算的数据交易模式通过使用密码学技术和隐私保护算法,使得数据在交易过程中可以进行加密和匿名化处理,将交易对象由原始数据转变为数据产品,以保护个体隐私,赋能数据要素以安全合规的方式进行流通。
关键词:数据交易;隐私计算;数据要素流通
作者:林庆、季慧丽、韩正野、刘晓霞、姜春朝
引言
数据交易模式现状探究
1. 数据本身直接交易模式
交易两方约定数据交易的内容和方法,洽谈并达成一致后签订数据交易合同,一方交付数据,一方完成付款。通常,购买方通过某种渠道了解到销售方出售某类数据,经与销售方协商后,签订合同,购买数据。这种模式,比较适合线下“一手交钱,一手交货”的交易,在数据黑市比较普遍,但交易不透明,市场监管难度大。此类交易模式,卖方很难控制买方的行为,特别是买方复制数据并与其他第三方再进行交易的行为。例如,A以1万元的价格出售1份数据给B,却很难保证B不拿这份数据复制100份,以每份1千元卖出去。此类交易模式,也容易侵犯数据主体的权益,购买的数据可能涉及较多法律风险。
2. 数据交易所模式
数据交易所由政府牵头成立,在政府监督管理下的集中场所完成数据供求关系撮合。比如贵阳大数据交易所。类似于股票交易市场,在数据交易所,买卖双方必须注册成为市场成员,通过交易所平台进行数据买卖。但是,由于信息不对称,数据易复制,交易双方担心数据被第三方交易所截留,进行非法套利。早期政府开办的数据交易所,数据交易很清淡。交易双方一旦达成某次交易,就可能不再依靠数据交易所进行下一次的交易。
3. 资源互换模式
资源互换模式主要存在于组织和个人之间,某公司或企业通过提供免费的应用服务,换取公司或企业对个人数据的使用权。资源互换模式也存在一些问题:第一,互联网平台与用户之间地位不平等、信息不对称,用户被迫接受数据授权协议,可能用重要个人数据换取了不太有价值的资讯服务,互联网平台也可能过度收集用户数据,或把从甲业务中收集到的个人数据用于用户不知情的乙业务上,从而造成隐私侵犯和数据滥用问题。第二,用户紧密依赖于互联网平台,难以行使对数据的可携带权,很难将自己的数据开放给或迁移到第三方平台上。第三,用户难以获得对个人数据的合理收益权。
4. 会员账户服务模式
会员账户服务模式比价适用于会员制交易模式。数据销售方出售数据平台的会员服务,数据需求方购买会员服务后,即可获得与会员层等级相应的数据访问权限及数据产品。
5. 数据云服务交易模式
销售商不直接提供数据,而是提供数据应用的云计算服务或数据应用系统,数据需求方购买云计算服务或应用系统,以此应用数据价值。
6. API访问模式
数据提供方通过应用程序编程接口(Application Programming Interface,API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。销售方既限定哪些数据可开放,也限定向哪些机构开放。
以上几种交易模式各有利弊,但交易的对象都为数据本身,在数据的流转过程中容易导致原始数据泄漏,各个参与方有可能滥用数据,不利于隐私保护。
隐私计算应用路线
隐私计算是将数据可见的具体信息部分和不可见的计算价值两者进行剥离,实现“原始数据可用(可参与计算)不可见(不可传输原始数据)”,以此方式打消多个数据计算参与之间对于原始数据泄露的顾虑及阐明多方数据计算方式的安全性。以技术手段有效的破解“数据孤岛”困境,其本质是一种由多个参与方在安全信任的条件下进行多方协同计算的技术,各个数据参与方在不泄露计算规则及原始数据的前提下,通过密码算法机制对数据进行联合计算和分析,实现数据的融合价值,让数据智能从局部洞察发展到全局洞察。隐私计算的技术路线主要有安全多方计算、联邦学习等。
一、安全多方计算
安全多方计算是一种在没有数据共享和可信第三方的情况下,通过安全的算法和协议,安全地计算约定函数的技术和框架。通过使用安全的算法和协议,参与方对其数据进行加密或转换,并将加密或转换后的数据提供给其他方。使得参与方无法获取其他方的明文数据,从而确保各方数据的安全性。安全多方计算常用的底层算法包括同态加密、秘密分享、混淆电路、不经意传输、零知识证明等。
1. 同态加密
使用同态加密进行多方安全计算的思想比较直观,即为各参与者将自己的输入加密后一起发给某计算服务器,服务器直接在密文上进行计算,计算后将得到的结果的密文发送给指定结果方,结果方再将结果的密文解密,即可得到最终的计算结果。如此一来,计算服务器一直在密文上操作,无法看到任何有效信息,而参与者也只拿到最后的结果,看不到中间结果。尽管RSA公钥加密方案是乘法同态的,但是由于它是一个确定性的公钥加密方案,所以语义存在一定的不安全性。另外,ElGamal提出了乘法同态的安全加密方案。在多方安全计算中单同态加密常常与秘密分享方案相配合,组成完整的技术方案。
2. 秘密分享
秘密分享的基本思想是将数据切割成多份,并分发给不同的参与者,每个参与者持有其中一份,协作完成计算任务(比如加法、乘法运算)。因为参与者看不到数据全量信息,从而实现数据隐私保护。秘密分享方案最早是由Shamir和Blakley分别独立提出的(t,n)-门限方案,基本思想是将原秘密消息分成n个部分,只要获取到其中的t个部分即可重建出原消息,而小于t个分片则无法还原出原消息,也不能得到原消息的任何信息。很多研究者提出基于其他数学方法的秘密分享方案,但Shamir的方案仍然被认为是最实用的秘密分享方案。基于秘密分享理论基础,研究人员构造了GMW和SPDZ、SPDZ-2、MASCOT等多方安全计算技术。
3. 混淆电路
混淆电路基本思想是在电路中插入一系列的逻辑门和信号转换器,使得电路的行为变得模糊和难以理解,以此攻击者难以对电路进行逆向工程、分析和窃取敏感信息。例如对于一个XOR门,假设x和y分别是两个参与者A和B的输入。A首先为每种可能的输入生成一个随机密钥,然后加密并打乱真值表。B收到A的真值表以及和他输入相关的密钥后,用他自己的真实输入对应的密钥尝试解开每行,解密成功的即为他的输入对应的行。B将解密后的结果发还给A,A再解开他自己输入对应的行即得到最终结果。当然这里只展示了计算一个门的过程,单个门的输入是可以通过结果反推的。真实的场景下使用混淆电路,需要将每个门的输入输出串联起来,最终计算双方其实只能得到最终输出门的输出,中间门的真实输入输出是不会被解密的,也就是说双方都只能得到最终结果,而无法看到中间数据。
4. 不经意传输
不经意传输(Oblivious Transfer)简称OT,是密码学中的一个重要概念,用于在通信双方之间安全地传输信息,同时保护信息的隐私性。不经意传输是一种基本密码学原语(primitives),被广泛的用于安全多方计算等领域。OT最早在1981年被 Michael O. Rabin提出,在Rabin的OT协议中,发送者S发送一个信息m给接收者R,接收者R以1/2的概率接受信息m。所以在协议交互的结束的时候,S并不知道R是否接受了消息。该方案是基于RSA加密体系构造的。1985年S. Even,O. Goldreich,and A. Lempel提出了1-out-2 OT,在新的方案中S每次发送2个信息m0和m1 ,而R每次输入一个选择b。当协议结束的时候,S无法获得关于b 的任何有价值的信息,而R只能获得mb ,对于m1−b ,R也一无所知。
5. 匿踪查询
匿踪查询(Private Information Retrieval, PIR)技术在1995年由Chor等人提出。PIR技术更强调对于客户端(查询方)的隐私保护,通过PIR技术,客户端可以从不可信服务器管理的数据库中下载数据,同时不向服务器透露下载了哪个具体内容。根据参与检索的服务器数量不同,PIR技术主要分为两类: 单副本PIR和多副本PIR。单副本PIR又称为计算安全的PIR(CPIR),多副本PIR又称为信息论安全的PIR(IT-PIR)。在多副本PIR中,需要假设参与检索的服务器都保存了同样的数据副本且服务器之间不存在互相共谋。PIR技术的原理与不经意传输(OT)类似,通过对目标数据进行混淆、隐藏等方式实现隐私保护,区别在于,在PIR中要求传输过程的通信开销严格小于数据库规模(如果等于数据库规模,直接获取整个加密后的数据库同样可以保护客户端的隐私)。
6. 零知识证明
零知识证明(Zero-knowledge proof)是密码学中的一个重要概念,用于证明某个主张的正确性,而无需向验证者透露除了主张正确性之外的任何其他信息。在零知识证明的场景中,证明者(通常是一个称为Prover的实体)试图向验证者(通常是一个称为Verifier的实体)证明一个陈述(例如某个问题的答案)是正确的,而不泄露其他敏感信息,从而实现了强大的安全性和隐私保护。
二、联邦学习
联邦学习是一种分布式机器学习技术和框架,是人工智能发展的重要方向之一。旨在训练模型而不需要将原始数据集集中在一个地方。联邦学习通过将模型的训练过程推送到每个本地设备(客户端),并仅在本地设备上进行模型更新,保证各方原始数据不被泄露的情况下进行多方机器学习。在联邦学习框架下,各个参与方只交换密文形式的算法中间计算结果或转化结果,而不需要交换原始数据。在隐私计算多种技术路径中,联邦学习是效率与性能最优的方案,还可以通过与同态加密、秘密分享、差分隐私、随机扰动等MPC协议的结合使用,进一步提高数据协作过程中的安全性。
数据交易融合隐私计算技术
在基于隐私计算的数据交易模式中,通过多方协同计算得出不包含原始数据的数据产品并对该数据产品设定访问权限和使用条件。数据买方可以在满足条件的情况下获取该数据产品,并在本地进行调用或进一步计算或分析,而不需要直接访问原始数据。这种方式可以有效减少数据的泄露风险,同时保护数据持有者的隐私。
根据数据的敏感程度、合规性要求、计算效率和安全性等因素,可采取适当的隐私计算技术来保护数据隐私和实现安全的数据交易。
基于加密技术的数据交易:在数据交易过程中,可以使用加密技术保护数据隐私。数据持有者可以使用加密算法对数据进行加密,并将密钥提供给数据买方以解密数据。这种方法可以防止数据在传输和存储过程中被窃取或篡改,同时保护数据持有者的隐私。
基于同态加密的数据交易:同态加密技术可以在不暴露数据内容的情况下进行计算,这可以帮助保护数据隐私。在数据交易中,可以使用同态加密技术对数据进行加密,数据需求方只能获取计算结果,而无法获得计算之前的原始数据。这种方法可以保护数据的隐私,同时允许数据买方进行分析和计算。
基于差分隐私的数据交易:差分隐私技术可以在保护数据隐私的同时提供可用的数据分析结果。在数据交易中,数据持有者可以使用差分隐私技术对数据进行处理,使得数据的个人身份信息和敏感信息得到保护。同时,差分隐私技术可以保证分析结果的准确性和可用性。
基于安全多方计算的数据交易:安全多方计算技术可以在多方参与计算的情况下保护数据隐私。在数据交易中,可以使用安全多方计算技术将数据分割成多份,并分配给多个参与者。参与者可以在不暴露数据内容的情况下进行计算,并将计算结果合并。这种方法可以帮助保护数据隐私,同时允许多方进行合作和计算。
隐私计算与数据交易平台层面互联
招标 | 近期隐私计算项目招标中标案例